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科技 文献 语 篇 元 素 自动 标注 模型 研究 综述 
Fea Ke gg 
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摘要 : [ 目的 /意义 ] 为 更 好 地 提升 科技 文献 的 语义 丰富 化 效果 ,对 国内 外 科技 文献 语 篇 元 素 标注 模型 、 技 
术 和 方法 进行 调研 总 结 ,为 文本 挖 振 、 科 技 论文 知识 抽取 、 语 义 分 析 系 统 研究 者 提供 借鉴 。[ 方 法 /过 程 ] 利 用 学 
术 网 站 搜索 和 相关 数据 库 搜索 引擎 ,对 涉及 科技 论文 标注 、 语 篇 元 素 、 知 识 抽 取 、 句 子 识别 和 自动 文章 分 类 等 参 
考 文献 以 及 研究 报告 进行 深入 阅读 和 调研 ,对 语 篇 元 素 自动 标注 模型 以 及 相关 工作 进展 进行 研究 总 结 。[ 结 
果 / 结 论 ] 科 技 文献 语 篇 元 素 标注 具有 非常 重要 的 实际 应 用 价值 ,构建 标注 模型 需 充 分 考虑 构建 思想 、 标 注 领域 
和 标注 粒度 以 及 标注 技术 手段 等 方面 。 
CR: 科技 文献 语 篇 元 素 标注 模型 ”自动 标注 
C^) 分 类 号 : G251 
= DOI 10. 13266/j. issn. 0252 ~ 3116. 2018. 15.015 


Sea FIF CHEM SUCI 


"LX" E 
EE E 70 ee at 注 模型 ,对 上 述 语 篇 元 素 的 知识 进行 组 织 揭示 。 自 动 
re mman auem msaa, 全 汪 模 型 是 进行 语 篇 元 素 自 动 标注 工作 的 数据 处 理 基 
nn 准 和 数据 组 织 规范 框架 ,所 有 的 标注 工作 都 是 建立 在 
何 找到 文献 中 特定 类 别 信息 ( 比如 所 有 实验 数据 ) .如 

| M ED NF 模型 之 上 。 因 此 ,本文 调研 了 国际 知名 研究 学 者 和 重 
全 多 取 特 定 类 别 的 知识 单元 显得 更 有 意义 和 前 史 性 ，。 ate ote Fy aM TERI 
妈 生 快速 并 且 全 面 地 获取 用 户 想 要 的 研究 信息 越 来 越 EE POR IAR ATS H TEN 
a an 研究 进展 ,并 着 重 对 科技 文献 标注 模型 进行 分 析 总 结 ， 
己 本 研究 将 语 简 元 素 定 义 为 能 够 明确 表示 对 科技 文 IITA MIROR. 
献 包 蕴 合 的 知识 价值 进行 功能 描述 的 片段 ,其 可 以 是 Sy 
一 个 从 名 个 完整 ^i] 子 一 个 E jk ， 甚至 一 个 片 段 本 course eal scheme : M MM A pn 
文 对 语 篇 元 素 的 标注 信息 定义 为 对 其 蕴含 的 语义 类 别 annotation, sentence classification , 语 篇 结构 ,句子 分 类 ， 
信息 进行 标注 ,如 研究 思路 、 理 论 工具 和 方法 .科学 试 。 日 劲 分 类 ,请 义 标 注 "等 关键 不 证 进行 检索 以 及 关联 赔 


验 、 实 验 结果 ,研究 结论 等 。 如 何 将 论文 中 上 述 有 价值 。 变 , 然 后 评 细 分 析 研究 了 近 15 年 的 50 多 简 研 究 广 献 ， 


的 语义 知识 揭示 出 来 ,让 其 能 够 被 方便 地 发 现 和 使 用 ， ”分 别 来 自 英国 美国、 中 国 等 国家 和 欧 吕 ,最 后 整理 出 


已 经 成 为 当前 数字 图 书馆 研究 的 一 个 重要 课题 。 近 年 。 ”专门 针对 语 篇 元 素 自 动 标注 模型 的 几 个 有 影响 力 的 研 
来 ,来 自 数字 图 书馆 .知识 抽取 .知识 组 织 和 揭示 等 领 ” 完 团队 作为 本 文 重点 综述 分 析 的 对 象 。 下 文 将 首先 对 
域 的 专家 学 者 从 不 同 角度 开展 研究 ,但 大 多 局 限于 对 ”典型 的 语 篇 元 素 标注 模型 进行 详细 描述 ,包括 对 瑞士 


E 


科技 论文 中 的 零散 知识 点 及 其 关系 进行 标注 和 揭示 ， H- Ribaupierre 等 '”、 英 国 华威 大 学 M Liakata 
如 实体 抽取 和 关系 抽取 等 ,从 整体 上 有 效 揭示 科技 论 T EEK S. Teufel 等 ”3、 普 拉 大 学 下 


* 本 文系 中 国 科 学 院 文 献 情报 能 力 建 设 专项 项 目 “ 基 于 arXiv 数据 的 物理 领域 科研 论文 自动 语义 标注 和 索引 应 用 示范 ”( 项 目 编号 : 院 1657) 
研究 成 果 之 一 。 
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Ronzano 等 “ ”相关 研究 人 员 及 其 团队 的 研究 模型 进 
行 总 结 介绍 ,主要 包括 对 概念 层 、 元 数据 层 、 文 章 结 构 
层 话语 修辞 层 . 关 系 层 次 的 详细 说 明 ; 其 次 深入 分 析 
比较 各 个 模型 的 不 同 ,总 结 出 面向 科技 文献 语义 标注 
的 多 层次 语义 标注 模型 需要 考虑 的 角度 和 方面 ,如 构 
建 思想 、 任 务 驱动 .标注 粒度 .研究 领域 等 ,以 帮助 科研 
人 员 更 好 地 建立 和 选择 模型 ;最 后 对 本 文 工 作 进行 总 
结 , 并 对 接 下 来 的 工作 进行 展望 。 


2 典型 的 科技 文献 语 篇 元 素 标注 模型 


描述 
2.1 SciAnnoDoc 模型 

SciAnnoDoc 模型 是 由 来 自 牛 津 大 学 的 H. Ribaupi- 
er 等 研究 提出 。 该 研究 的 任务 是 提高 信息 检索 的 精 
准 渍 和 提升 科技 文献 搜索 引擎 的 使 用 效果 "” ,该 研 
究 彼 设 当 科学 家 在 检索 信息 的 时 候 , 他 们 通常 都 有 一 
Acht ost HIR JU P TUER RE T EIE T" H 
N, TERE e LCS 9 Do B, Le RI — ES 
KIRON , FARE Da E £6 a IE 
者 比较 两 篇 文章 的 科学 结论 。 回 答 这 些 精确 或 
复 郊 的 科学 论文 的 查询 需要 对 文章 的 全 部 内 容 进 行 精 
确 建 模 标 注 ,尤其 是 对 每 一 篇 文章 的 语 篇 类 型 进行 标 


该 团队 经 过 反复 多 次 对 科学 家 进行 问卷 调查 和 专 
论证 判断 ,提出 了 以 用 户 为 中 心 的 SeiAnnoDoc 科技 
文献 标注 模型 ,对 语 篇 元 素 进 行 建 模 。 该 模型 将 
科 授 全文 分 为 4 个 层次 进行 标注 ,包括 概念 层 、 元 数据 
层 ( 修 辞 话语 层 .引用 关系 层 。 如 图 1 所 示 ” : 


1 SciAnnoDoc 模型 


(1) 概念 层 (Domain Concept) :对 文章 本 体 或 者 描 
述 科技 术语 词 表 或 者 文章 中 的 概念 进行 标注 。 

(2) 元 数据 层 ( Metadata ) :描述 元 数据 文本 信息 ， 
比如 作者 .出 版 年 发 表 期 刊 或 会 议 信息 等 。 


(3) 修辞 话语 层 ( Discourse Element) :这 是 每 个 模 
型 的 重点 组 成 部 分 ,描述 元 素 发 挥 的 作用 和 包含 的 知 
识 内 容 属 性 ,分 解 为 5 个 方面 :发 现 (Findings) .假设 
( Hypothesis) .方法 (Methodology) , 4H 2& T. fE ( Related 
work ) LJ J& E X. ( Definition ) 。 

(4) 引 用 关系 层 (relation ) :描述 文章 之 间 的 引用 
和 关联 关系 。 

2.2 CoreSC 模型 

CoreSC 模型 的 发 展 成 型 主要 经 历 了 两 个 关键 阶段 
的 研究 :第 一 阶段 的 科技 文献 核心 信息 CISP 元 数据 模 
型 (core information about scientific papers ) 8! 和 第 二 阶 
段 的 核心 科技 概念 模型 CoreSC ( core scientific con- 
cepts) |") 。 

第 一 阶段 CISP 元 数据 模型 来 源 于 EXPO… 中 描述 
通用 科技 概念 的 子 类 ,其 主要 包含 了 描述 一 项 科学 调 
查 人 研究 至 关 重 要 的 概念 ,对 概念 类 别 经 过 专家 调研 和 
实际 论文 标注 分 析 , 精炼 为 以 下 12 个 类 别 最 终 作 为 
CISP 的 模型 分 类 :研究 目标 ( goal of investigation) .研究 
对 象 (object of investigation ) 研究 方法 (method of in- 
vestigation ) , SJ ( experiment ) , Wl Z& ( observation ) , [E 
i (hypothesis) .结果 (results) , Z& i£ ( conclusion) 动机 
( motivation ) | 13 5x ( background ) , [8] Æ ( problem ) 、 例 子 
(example) ,其 中 8 个 核心 类 为 研究 目标 、 人 研究 动机 、 研 
究 对 象 .研究 方法 .实验 结果、 观察 和 结论 T, 

第 二 阶段 ,核心 科技 概念 CoreSC 模型 ,是 在 CISP 
基础 上 丰富 完善 的 ,于 2010 年 被 正式 提出 ,由 在 自动 
识别 发 现 文 章 中 一 项 科研 调查 的 组 成 部 分 ,是 句子 级 
的 文本 标注 模型 ,具体 模型 描述 如 表 1 Hr C VE 
要 包含 了 3 个 层次 的 标注 , 表 1 展示 了 第 一 个 层次 的 
11 个 类 别 的 含义 和 第 二 个 层次 的 类 别 属 性 (New , Old , 
Advantage Disadvantage ) 。 

(1) 修 辞 类 别 层 :第 一 个 层次 包含 了 11 个 修辞 类 
别 , 包 括 假设 (Hypothesis) 动机 ( Motivation ) , 1$ 3x 
( Background ) .目标 (Goal) XFA (Object) 方法 (Meth- 
od) 实验 (Experiment ) 模型 ( Model) .观察 ( Observa- 
tion) 结果 (Result) .结论 (Conclusion ) 。 

(2) 概念 类 别 属性 层 :第 二 个 层次 是 对 概念 属性 
的 标注 ,如 New ak Old 标注 了 一 项 方法 是 新 方法 还 是 
旧 方 法 ,Advantage 或 Disadvantage 标注 了 一 项 方法 的 
优势 和 劣势 。 

(3) 概念 识别 ID 层 : 第 三 个 层次 是 ConceptID 标 
识 相同 概念 的 相关 联 实例 集合 ,如 所 有 属于 相同 方法 
的 句子 关联 在 一 起 使 用 相同 的 ConceptID 。 
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表 1 核心 科技 概念 (CoreSC) 标 注 模 型 


类 别 功能 描述 
Hypothesis A statement not yet confirmed rather than a factual statement 
Motivation The reasons behind an investigation 
Background Generally accepted background knowledge and previous work 
Goal A target state of the investigation where intended discoveries are made 


Object-New 
Object-New-Advantage 
Object-New-Disadvantage 
Method-New 
Method -New-Advantage 
Method -New -Disadvantage 
Method -Old 
Method-Old -Advantage 
Method-Old -Disadvantage 
Experiment 
Model 
Observation 


Result 


0603v1 


Conclusion 


An entity which is a product or main theme of the investigation 
Advantage of an object 
Disadvantage of an object 
Means by which authors seek to achieve a goal of the investigation 
Advantage of a Method 
Disadvantage of a Method 
A method mentioned pertaining to previous work 
Advantage of a Method 
Disadvantage of a Method 
An experimental method 
A statement about a theoretical model or framework 
the data/phenomena recorded in an investigation 


factual statements about the outputs of an investigation 


statements inferred from observations & results relating to research hypothesis 


N 


in 


Argumentative Zoning———AZ 模型 
. Teufel 的 论证 分 区 AZ US 77 是 受到 知识 声 
念 的 启发 写 文献 的 行为 与 声明 一 条 新 知识 的 所 
相关 ,是 经 过 作者 领域 的 同行 评审 之 后 加 入 科技 
有 行为 ” ,其 中 心思 想 是 假设 科技 文献 包 
其 他 贡献 者 的 积极 和 消极 的 陈述 ,因此 模型 更 

识 声明 (Knowledge claim) 的 组 织 揭示 。 

£a 模型 的 发 展 同样 经 历 了 两 个 关键 的 阶段 ,最 初 


= 
© 


BACKGROUND | Sentences describing some (generally accepted) background 
knowledge 


1999 年 S. Teufel 等 把 文献 分 成 7 个 分 区 ,具体 模型 描 
述 见 图 27" , OTHER, OWN 和 BACKGROUND 分 别 关 
联 于 这 些 片段 的 知识 所 有 权 归 属 ,BASIS 声明 了 使 用 

其 他 工作 作为 当前 工作 研究 基础 或 出 发 点 或 获得 的 支 
持 ,CONTRAST 包含 了 对 不 同 研究 工作 之 间 的 比较 ( 比 
如 指出 其 他 工作 的 不 足 ) ,AIM 指出 了 文章 的 主要 知识 
声明 ,TEXTUAL 给 出 了 文本 的 物理 位 置信 息 。 


BASIC 
SCHEME 


Sentences describing aspects of some specific other research ina | FULL 
neutral way (excluding contrastive or BASIS statements) SCHEME 


Sentences describing any aspect of the own work presented in 
this paper — except what is covered by AIM or TEXTUAL, c.g. 
details of solution (methodology), limitations, and further work. 


nmm best. portraying the particular (main) research goal of 
m article 


TEXTUAL Explicit statements about the textual section structure of the 
paper 


Sentences contrasting own work to other work; sentences point- 
ing out weaknesses in other research; sentences stating that the 
research task of the current paper has never been done before; 
direct comparisons 
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Statements that the own work uses some other work as its basis 
or starting point, or gets support from this other work 


Figure 1: Overview of the annotation scheme 


2 论证 分 区 AZ 模型 


2009 年 发 展 到 AZ-I EY ,扩展 到 了 15 个 类 别 , 对 
比 于 原始 AZ 模型 ,AZ-I 扩展 模型 的 变化 在 于 : 

(1) 类 别 AIM 保持 一 致 ; 

(2)2& 9] BACKGROUND 被 重新 命名 为 CO_GRO 
或 者 成 为 通用 背景 ; 

(3) 类 别 OTHER 被 细 分 为 其 他 人 的 工作 (OTH- 
ER) 和 作者 自己 之 前 的 工作 (PREV_OWN ; 

(4) 类 别 BASIS 被 细 分 为 使 用 (USE ) f Sc dr 
(SUPPORT ) ; 

(5) 类 别 CONTRAST 被 细 分 为 中 立 对 比 (CODI) , 


ard 
4S 


矛盾 对 立 ( ANTISUPP ) 
WEAK); 

(6) X Hl] OWN 被 细 分 为 方法 描述 (OWN_ 
MTHD) , 25% (OWN_RES) 结论 (OWN_CONC) 以 及 
作者 指出 可 修复 的 错误 信息 (OWN_FAIL); 

(7) 停 止 使 用 类 别 TEXTUAL ,因为 对 比 其 他 类 别 
该 类 别 信息 量 更 少 。 

该 模型 引入 了 两 个 新 的 类 别 一 一 新 知识 声明 的 优 
势 (NOV_ADV) 和 未 来 工作 限制 声明 (FUT) 。 具 体 类 
别 含 义 如 表 2 Br TU. 


究 不 足 评论 (GAP_ 


表 2 论证 分 区 AZN 标注 模型 


类 别 功能 描述 
= AIM Statement of specific research goal, or hypothesis of current paper 
NOV_ADV Novelty or advantage of own approach 


CO_GRO 


OTHR 
PREV_OWN 


No knowledge claim is raised ( or knowledge claim not significant for the paper) 
Knowledge claim (significant for paper) held by somebody else. Neutral description 


Knowledge claim (significant) held by authors in a previous paper. Neutral description. 


OWN_MTHD 
OWN_FAIL 
OWN_RES 

OWN_CONC 

CODI 

GAP WEAK 

ANTISUPP 
SUPPORT 
USE 


FUT 


IZ Multi-Layer Scientific Discourse 标注 模型 
过 该 模型 是 2015 年 由 法 培 拉 大 学 自然 语言 处 理 团 
队 的 B. Fisas F. Ronzano 等 结合 计算 机 图 形 学 领域 实 
际 情况 ,创新 性 地 提出 的 简化 版 标注 模型 ””。 计 算 
机 图 形 学 是 一 个 相对 年 轻 的 学 科 , 在 语义 标注 上 不 同 
于 生物 科学 有 很 成 熟 的 词 表 标 注 , 同 时 计算 机 图 形 学 
大 多 有 技术 背景 ,比如 物理 学 机械、 流体 动力 学 .数学 
等 ,因此 模型 更 侧重 于 算法 、 方 程式 代数 和 数学 推理 
等 。 该 模型 也 遵循 了 前 人 的 研究 ,认为 句子 是 表示 语 篇 
元 素 的 最 佳 粒度 ,因此 模型 也 是 基于 句子 级 别 的 标注 。 
为 了 加 强 对 科技 全 文 语 篇 元 素 以 及 整体 科技 文献 
的 理解 ,研究 人 员 综 合 考虑 到 语 篇 类 别 修辞 .引用 的 价 
值 与 文章 中 心思 想 接近 程度 .交叉 特征 标注 等 ,共同 
形成 了 Multi-Layer Scientific Discourse 多 层次 科技 文献 
标注 模型 ”。 如 图 3 所 示 ,每 一 个 句子 都 包含 了 4 个 
层次 的 信息 ,从 左 向 右 依次 是 类 别 修 饰 层 .引用 目的 


New Knowledge claim ，own work :Methods 
A solution/method/experiment in the paper that did not work 
Measurable/ objective outcome of own Work 
Findings, conclusions ( non-measurable) of own work 
Comparison, contrast, difference to other solution ( neutral) 
Lack of solution in field, problem with other solutions 
Clash with somebody else’ s results or theory ; superiority of own work 


Other work supports current work or is supported by current work 


Other work is used in own work 


Statements/suggestions about future work ( own or general ) 


层 交叉 特征 层 . 中 心 相 关 度 层 。 

(1) 语 篇 类 别 层 次 。 主 要 包含 了 来 源 于 对 CoreSC 
模型 和 AZ 模型 的 类 别 进行 简化 映射 后 最 终 确 定 的 5 个 
类 别 ,分 别 是 Challenge , Background , Approach , Outcome , 
Future Work ,具体 类 别 定义 和 简化 说 明 见 图 4 。 

(2) 引 用 目的 层次 。 这 部 分 主要 是 对 文献 中 的 引用 
进行 细 化 标注 ,主要 采用 了 A. Abu-Jbara 4 的 标注 模 
型 提议 ,具体 引用 目的 类 别 见 表 3” ,包括 评论 ,对比 、 
使 用 .基础 工作 或 通用 研究 等 方面 ,每 一 个 类 别 拥有 不 
同 的 子 属性 ,如 Weakness 和 Strength 包含 了 评价 极 性 
Evaluation 目的 在 于 收集 那些 关于 一 篇 引文 正面 和 负 
面 评论 的 句子 ;Similarity 和 Difference 是 对 比 的 对 立 原 
;Use( 引 用 ) 进 行 方 法 、 数 据 或 者 工具 引用 标注 区 分 
等 ;Basis 类 标注 了 作者 引用 自己 的 工作 (Own Work) 
还 是 其 他 人 的 工作 等 。Neutral 类 别 包含 了 对 研究 者 工 
作 的 描述 ,更 多 信息 引用 或 者 领域 通用 的 实践 等 。 
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State fo Art | Citations(YES, NO?) Crosswise | RELEVANCE FOR SUMMARY 
à; x Features — | š 4 

CHALLENGE CRITICISM T 1:TOTAL IRRELEVANT FOR A SUMMARY 
ADVANTAGE(YES,NO) 

BACKGROUND COMPARISION 2:SHOULD NOT APPEAR IN A SUMMARY 
DISADVANTAGE(YES,NO) 

APPROACH USE 3:MAY APPEAR IN A SUMMARY 
COMMON PRACTICE(YES,NO) 

OUTCOME BASIS 4:RELEVANT FOR A SUMMARY 
NOVELTY(YES,NO) 

FUTURE WORK SUBSTANTIATION 5:VERY RELEVANT FOR A 
LIMITATION SUMMARY 

NEUTRUAL 


3 Multi-Layer Scientific Discourse 标注 模型 


CHALLENGE: The current situation faced by the researcher: it will normally include a Problem Statement, the 
Motivation, a Hypothesis and/or a Goal. 

BACKGROUND:This section presents all the information which is helpful for understanding the situation or prob- 
lem that is the subject of the publication. It will include sentences that state widely accepted knowledge in the 
domain (Common Ground) as well as previous related work ( Related Work). 

APPROACH: In this section the author explains HOW he intends to carry out the investigation. He may refer to 
a theoretical model or framework (Model), give some or many details of the experimental setup ( Experiment), 
point to some data/phenomena observed during the experimentation (Observations) or comment on his decisions 
for choosing this methodology (Method). 

OUTCOME: Here the author offers the study findings: measurable data without discussion (Results), an interpre- 
tation or analysis of the results in support of the conclusion (Discussion), how the research will contribute to the 
current knowledge in the field (Contribution) and an overall conclusion that should reject or support the research 
hypothesis (Conclusion). Any comments on the limitations of the authors work will also be included in the OUT- 
COME section. 

FUTURE WORK: In most articles, the author will suggest or recommend further research to improve or extend his 
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own work. 


202308.00603v1 


inaXiv 


X3 引用 目的 类 别 


g= 
CP 的 


子 目 的 目的 子 目 的 
CRITISM Weakness SUBSTANTIATION 
Strength BASIS Previous Own Work 
Evaluation Others work 
Other Future work 
COMPARISON Similarity NEUTRAL Description 
Difference Ref. for more information 
USE Method Common Practices 
Data Other 
Tool 
Other 


(3) 交叉 特征 层 。 科 技 文献 语 篇 特征 Advantage 
和 Disadvantage 可 以 用 来 描述 作者 自己 的 方法 和 引用 
文献 的 特征 ,由 于 优 劣 势 通 常 在 一 句 话 内 出 现 ,因此 交 
又 特 征 层 包 含 了 双 精 度 类 别 Advantage -disadvantage 和 
Disadvantage -advantage , £/] Xr ( Novelties ) 和 领域 通用 实 
践 的 特征 标注 。 最 后 的 Limitations ( 局 限 性 ) 特征 仅 指 
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Figure 2: Description of the 5 categories of our Simplified Discourse Annotation Scheme 


图 4 Multi-Layer Scientific Discourse 标注 模型 类 别 定义 说 明 


作者 自己 的 工作 ,这 在 比较 不 同 的 调查 研究 上 很 重要 。 
综 上 5 个 交叉 特征 类 别 为 ADVANTAGE DISADVAN- 
TAGE . COMMON „NOVELTY „LIMITATION, 

(4) 中 心 相关 重要 度 层次 。 按 照 每 一 个 句子 对 中 
心思 想 贡 献 度 设置 了 5 个 层级 的 分 值 ,如 完全 不 相关 、 
不 应 该 出 现在 文摘 中 、 应 该 出 现在 文摘 中 、 相 关 、 非 常 
相关 ,依次 从 1 分 到 5 分 。 

2.5 研究 设计 指纹 描述 模型 

中 国 科 学 院 文献 情报 中 心 钱 力 ,张晓林 等 ”2014 
年 提出 利用 研究 设计 指纹 对 科技 文献 进行 结构 化 描 
述 ,提升 科技 文献 的 计算 机 可 识别 性 .可 执行 性 ,帮助 
科研 人 员 快 速 了 解 科 技 文 献 的 研究 方法 算法、 工具 及 
结论 等 ,并 为 未 来 的 科学 出 版 ( 即 语义 化 出 版 ) 提供 相 
应 的 出 版 规范 参照 。 具 体 的 研究 设计 指纹 描述 模型 见 
表 4。 研 究 设计 指纹 框架 体系 结构 以 研究 设计 指纹 来 
表示 科技 文献 研究 成 果 , 总 体 结构 分 为 两 个 层次 ,第 一 
个 层次 分 为 研究 主题 .研究 方法 .研究 算法 、 人 研究 结果 、 
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TAH, KE, 马 娜 . 科技 文献 语 篇 元 素 自 动 标注 模型 研究 综述 [J]. 图 书 情报 工作 ,2018 ,62(15 ) :132 -144. 


研究 结论 与 未 来 研究 六 大 部 分 ;第 二 个 层次 详细 描述 
科技 文献 ,主要 分 为 研究 假说 .研究 场景 .研究 目的 、 研 
FEET Se .研究 方 法 \ 人 研究 数据 、 研 究 算法 、 研 究 结 有 果 、 研 
究 结 论 .未 来 研究 以 及 研究 设备 共 11 种 设计 指纹 ,两 
个 层次 之 间 相 互 关联 ,层次 内 部 相互 关联 ,可 很 好 地 文 
持 科 技 资 源 之 间 的 关联 计算 与 发 行 。 该 研究 模型 针对 
全 文 的 4 个 粒度 进行 标注 , 即 标 题 摘要 层 , 正 文 论证 
分 区 层 ,句子 层 , 主 题词 层 。 
A4 研究 设计 指纹 描述 模型 


层次 Tou 
研究 设计 层次 研究 主题 研究 方法 、 研 究 算法 、 研 究 结果 、 研 究 结 
论 .未 来 研究 
详细 描述 科技 文献 ” 研究 假说 、 研 究 场 景 .研究 目的 .研究 背景 .研究 方 
法 .研究 数据 .研究 算法 .研究 结果 研究 结论 .未 来 


研究 研究 设备 


3 ， 国 外 各 个 语 篇 元 素 标注 模型 和 工作 
进展 对 比分 析 
三 由 于 上 述 模型 研究 中 国外 的 模型 都 进行 了 系统 建 
挛 和 应 用 实现 ,因此 本 部 分 着 重 对 国外 的 研究 进展 进 
析 比 较 。 首 先 从 不 同 角度 比较 了 4 种 模型 构建 的 


为 接 下 来 的 研究 工作 提供 参考 。 
3.1 模型 构建 思想 和 解决 任务 的 对 比分 析 

模型 构建 思想 作为 研究 者 建立 模型 的 初 囊 和文 
撑 整 个 模型 的 理论 研究 基础 非常 关键 ,也 决定 了 整 
个 模型 的 区 分 粒度 和 划分 角度 。 相 同 点 就 是 每 一 个 
研究 者 都 是 为 了 从 文献 中 更 好 地 提炼 挖掘 语 篇 元 素 
价值 片段 ,不 同 点 是 研究 者 面临 着 不 同 的 任务 驱动 ， 
如 SciAnnoDoc 模型 主要 的 目的 是 为 了 应 用 在 检索 系 
统 中 ,提升 检索 效率 ,方便 用 户 快速 找到 想 要 的 知识 
片段 ;CoreSC 模型 是 为 了 更 好 地 以 本 体 研究 的 视角 ， 
全 方面 地 解释 一 项 调查 研究 工作 ;AZ 模型 是 基于 知 
识 声明 观点 ,更 加 强调 作者 的 贡献 和 引用 他 人 的 工 
VE ; Multilayer 模型 则 是 顺应 技术 的 发 展 ,更 好 地 解决 
新 领域 的 文献 语义 分 析 问 题 ,因此 研究 者 要 考虑 解 
决 实际 的 研究 任务 需要 建立 不 同 的 研究 模型 ,具体 
如 表 5 所 示 。 通 过 分 析 可 发 现 ,如 果 研 究 人 员 研 究 重 
心 在 于 对 一 个 学 科 领 域 的 研究 内 容 进行 组 织 揭示 ， 
可 采用 CoreSC 基于 本 体 的 揭示 模型 ;如 果 研 究 人 员 
侧重 于 去 研究 发 现 知 识 产 权 的 相互 影响 和 学 者 贡献 
影响 ,可 采用 AZ 模型 ,方便 区 分 他 人 与 作者 本 人 的 


相 癌 点 和 不 同 点 ,从 而 为 对 研究 人 员 实 际 构建 模型 提 


供 建 议和 参考 ,主要 从 模型 的 构建 思想 和 任务 .模型 的 
类 鹿 以 及 构建 方法 .标注 的 领域 和 语 料 数据 集合 .标注 
工党 和 分 类 算法 以 及 最 终 的 实验 效果 分 析 几 个 角度 去 
光 。 最 后 也 对 模型 研究 中 的 问题 进行 了 总 结 ,以 便 


二 模型 名 称 构建 思想 


贡献 ;研究 人 员 如 果 面 临 实际 对 文献 中 心思 想 提炼 、 
文献 知识 定向 检索 的 应 用 场景 ,可 采用 Sci AnnoDoc 
和 Multilayer 模型 ,以便 帮 助 用 户 快速 找到 想 要 的 知 
识 片 段 。 


表 5 模型 构建 思想 和 任务 比较 


解决 任务 
pSeiAnnoDoc 以 用 户 为 中 心 ,回答 用 户 精确 或 复杂 的 科学 论文 的 查询 问题 ,需要 对 文章 的 全 部 内 容 进行 精确 建 模 提高 精确 检索 效率 
ut. 基于 本 体 理论 ,认为 科学 论文 是 一 项 包含 核心 科学 概念 的 科学 调查 研究 内 容 的 表示 揭示 科技 文献 的 丰富 语义 
AZ AZJI 基于 知识 声明 观点 ,假设 科技 文献 包含 了 作者 .贡献 者 的 知识 产权 和 贡献 说 明 自动 生成 科技 文摘 ,进行 引文 分 析 
Multilayer 综合 CoreSC 和 AZ 模型 自动 分 析 科技 文献 语 篇 结构 


3.2 语 篇 元 素 类 别 和 建立 方法 对 比分 析 

模型 的 建立 方法 大 都 经 过 不 断 的 论证 完善 , 如 
SciAnnoDoc 先是 通过 调查 问卷 ,然后 再 邀请 专家 确认 
最 后 类 别 ;CoreSC 模型 主要 是 基于 对 科学 实体 本 体 演 
化 ,选择 核心 概念 类 别 , 进 而 完成 CoreSC 类 别 确定 ; 
Multilayer 类 别 的 确认 在 上 述 模 型 1.4 中 详细 论述 ,也 
是 精简 了 上 述 两 个 模型 的 16 类 类 别 和 概念 。 模 型 标 
注 粒 度 大 部 分 是 基于 句子 粒度 的 标注 ,如 CoreSC , AZ , 
Multilayer 模型 ,而 SciAnnoDoc 为 了 检索 内 容 的 丰富 性 
选择 了 片段 标注 。 上 有 具体 见 表 6。 

本 文 进一步 对 模型 的 类 别 进行 了 详细 对 比 , 见 图 
5。 各 个 模型 不 仅 在 类 别 上 具有 相似 的 或 者 相同 的 名 


=, 如 BACKGROUND AIM ( GOAL ) , METHOD ( AP- 
PROACH) ,在 具体 标注 的 范围 上 也 存在 交叉 覆盖 映 
射 。 

3.2.1 CoreSC 模型 与 AZ 模型 对 比 ”M. Liakata 和 S. 
Teufel 对 CoreSC 和 AZ 模型 进行 对 比 标注 ,指出 这 
两 种 模型 在 科技 文献 表示 观点 上 形成 互补 ,CoreSC 模 
型 中 的 BACKGROUND 包含 了 一 般 中 立 的 背景 知识 同 
时 也 包含 了 现 有 知识 声明 ,对 应 在 AZ. TE 模型 中 分 别 
为 OTHER PREV_OWN 和 CO. GRO 类 别 。AIM 类 在 
AZ 模型 中 是 研究 目标 的 声明 ,但 在 CoreSC 模型 中 可 
分 解 到 以 下 3 个 类 别 中 :GOAL (研究 调查 的 目标 状 
A), HYPOTHESIS (尚未 验证 的 声明 ) 、OB 正 CT( 研究 
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图 二 情报 三 作 
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表 6 模型 语 篇 元 素 类 别 和 构建 方法 对 比 表 


模型 名 称 “类别 数 E 语 篇 元 素 组 成 建立 方法 
SciAnnotDoc — 5 片段 FINDINGS HYPOTHESIS , METHODOLOGY ,RELATED WORK ,DEFINITION 户 调研 .实证 研究 
CoreSC 11 ”句子 HYPOTHESIS, MOTIVATION, BACKGROUND, GOAL, OBJECT, METHOD , EXPERI- 本 体 演 化 .专家 论证 
MENT MODEL ,OBSERVATION ,RESULT .CONCLUSION 
AZ 7 句子 OTHER .OWN ,BACKGROUND BASIS ,CONTRAST , AIM TEXTUAL 知识 声明 导向 ,修辞 结构 理论 建立 
AZJI 15 ^f ~~ AIM \NOV_ADV ,CO_GRO OTHR ,REV_OWN ,OWN_MTHD ,OWN_FAIL,OWN_RES , 基于 AZ 和 实际 工作 扩展 
OWN, CONC,CODI,GAP WEAKANTISUPP „SUPPORT ,USE „FUT 
Multilayer 5 句子 CHALLENGE ‚BACKGROUND , APPROACH ,OUTCOME ,FUTURE WORK 简化 CoreSC 和 AZ 类 别 
[m 
o 
© 
Ww 
[e] 
rT re 
> = 
~ ] GAP. WE 
eo CODI c 
GNU n 
Co) — 
o 3 f 
= BACKGR APPROA 
S } eG 
< 
n 8 
e m 
o. 1 
co 2 DEFINITION HYPOTHE RELATED eee FINDINGS 
5 sm | 
CN 8 —— 
i=] 
© 9 
N = 
E I 
> 5 各 个 模型 类 别 映射 及 对 比 
LE od 


调 攻 中 相关 联 的 特定 实体 或 对 研究 调研 实体 规则 届 性 
的 创新 性 或 优 劣 势 的 声明 )。OWN_MTHD 和 METH- 
0 都 是 指 用 到 的 方法 ,然而 CoreSC 进一步 区 分 为 实 
WODI ( EXPERIMENT ) 、 当 前 研究 中 使 用 的 方法 
( Method -New) 以 及 文章 中 提 到 的 其 他 工作 中 使 用 的 方 
法 (Method -Old) , OWN. RES 与 CoreSC 类 别 中 OB- 
SERVATION 相关 ,表示 一 项 研究 调查 中 的 数据 或 现象 
记录 。 对 比 之 下 , CoreSC 类 RESULT 属于 从 OBSER- 
VATION 起 源 的 事实 论断 。AZJI 中 NOV. ADV 的 类 表 
示 在 文章 中 使 用 方法 的 新 颖 性 和 优势 ,对 应 到 CoreSC 
中 ,可 以 对 METHOD 和 OBJECT 进行 新 颖 性 和 优点 的 
标注 。 其 他 的 类 别 就 是 完全 不 同 的 类 别 ,在 CoreSC 模 
型 中 HYPOTHESIS , MOTIVATION , OBJECT 和 MODEL 
是 完全 根据 研究 调查 本 体 组 织 ,而 在 AZ-I 模型 中 CO- 
DI,GAP_WEAK SUPPORT , ANTISUPP , USE 和 FUT Jill 
是 按照 与 其 他 工作 的 关联 组 织 ,OWN_FAIL 阐述 文献 
作者 的 不 足 之 处 。 

3.2.2 CoreSC + AZ 模型 与 Multilayer 模型 对 比 从 
Multilayer 模型 定义 中 可 以 很 好 地 发 现 ,该 模型 中 的 
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CHALLENGE 类 别 表 示 当 前 研究 者 面临 的 研究 状况 ， 
可 以 映射 到 CoreSC 的 HYPOTHESIS , MOTIVATION 和 
GOAL 以 及 AZ 模型 中 当前 没有 解决 的 问题 GAP 
WEAK fil OWN. FAIL, BACKGROUND 揭示 了 对 理解 
当前 研究 主体 有 用 的 发 表 信 息 ,映射 到 CoreSC 模型 中 
BACKGROUND 和 AZ 模型 中 的 CO_GRO 通用 背景 知 
识 和 使 用 的 方法 数据 USE 类 别 中 。APPROACH 映射 
到 CoreSC 模型 中 可 能 包括 了 之 前 的 MODEL 、EXPERI- 
MENT OBSERVATION , METHOD, OUTCOME 揭示 了 
研究 发 现 ,包括 可 测量 的 数据 结果 (RESULT) 或 者 结论 
(CONCLUSION), FUTURE WORK 则 对 应 AZ 模型 中 
的 FUT 类 别 。 
3.2.3 Multilayer 模型 与 SciAnnoDoc 模型 对 比 ”由 于 
SciAnnoDoc 模型 完全 是 基于 用 户 的 角度 去 构建 的 , 完 
全 采用 实证 研究 方法 ,因此 模型 更 加 接近 人 检索 使 用 
的 角度 。 例 如 DEFINITION 就 是 用 户 在 希望 了 解 一 个 
领域 知识 的 时 候 最 基础 的 需求 类 别 。 其 他 的 类 别 则 基 
本 与 Mutilayer 模型 一 一 对 应 。 

通过 对 比分 析 发 现 ,自动 标注 模型 的 语义 类 别 限 
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定 在 6 个 就 基本 可 满足 各 种 工作 需求 ,如 研究 目标 \ 研 3.3 总 体 研究 进展 和 成 果 对 比分 析 
究 背 景 人 研究 方法 、 研 究 发 现 、 人 研究 结 论 以 及 包含 科技 从 各 个 模型 研究 领域 和 应 用 项 目 角度 进行 分 析 ， 


文献 中 对 关键 术语 的 研究 定义 (概念 解释 ) ,其 他 的 各 
个 类 别 可 通过 映射 或 转化 到 这 些 类 别 中 去 ,这 样 可 避 
免 类 别 太 多 的 宛 杂 和 太 少 的 宽泛 问题 ,也 可 完全 履 盖 
语义 价值 信息 。 


体现 了 该 项 工作 的 具体 研究 价值 和 实用 价值 ,也 为 接 
下 来 的 研究 者 提供 了 丰富 的 语 料 和 项 目 参 考 。 具 体 如 
表 7 所 示 : 


表 7 总 体 研究 项 目 和 成 果 比 较 


模型 名 称 年 份 应 用 (资助 ) 项 目 应 用 领域 项 目 成 果 
SciAnnoDoc 2011 - 4 瑞士 自然 科学 基金 人 文 性 别 研究 A:1 400 篇 标注 全 文 B:FSAD 应 用 系统 
CISP/CoreSC 2007 -2009 英国 ART 项 目 生物 化 学 A :225 篇 标注 全 文 B:SAPIENT 文章 标注 工具 
2010 -2017 欧盟 SAPIENT Automation 项 目 A :265 篇 标注 全 文 B:SAPIENTA 自动 化 标注 工具 
C: 应 用 与 自动 文摘 系统 D: 应 用 与 CRA 项 目 

AZ/AZ-I 2004 — 2007 剑桥 大 学 研究 性 项 目 计算 语言 学 A180 篇 标注 全 文 

— 2010 - 4 CRA 项 目 生物 化 学 领域 A:1 000 篇 标注 摘要 B:CRAB 在 线 阅读 和 标注 系统 
ultilayer 2016 年 Dr. Inventor 项 目 计算 机 图 形 学 A :40 篇 标注 全 文 B:DRI Framework 标注 系统 和 框架 


SciAnnoDoc 研究 团队 致力 于 提升 检索 的 效率 ,在 
自然 科学 基金 项 目的 支持 下 5 ,项 目 选择 人 文 
领域 开发 了 一 套 面向 用 户 的 文献 检索 查询 系统 
SAD 系统 ) ,该 系统 基于 提出 的 SciAnnoDoc 模型 对 
6 息 进 行 了 标注 ,同时 提供 了 相应 的 标注 工具 和 人 工 
标注 语 料 , 经 过 严格 科学 的 用 户 使 用 评估 证 明 , 对 比 使 
用 SAD 系统 和 基于 传统 关键 字 检索 系统 ,使 用 前 者 
用 凑 解 决 问题 的 正确 率 和 效率 大 大 提升 。 

CoreSC 模型 的 前 身 是 CISP 模型 ,研究 始 于 2007 
向 英国 高 等 教育 联合 信息 服务 委员 会 (JISC ) 资助 的 
基 军 本 体 的 文章 表示 工具 项 目 ( An ontology -based arti- 
clé-preparation tool ,简称 ART) ,项 目 研 究 产 出 了 一 套 基 
于 CISP 模型 的 手动 标注 工具 SAPIENT ,可 方便 快捷 地 
基于 决策 树 的 方法 实现 人 工 标注 ,大 大 提升 人 工 标注 
的 效率 和 准 度 , 也 为 构建 可 靠 的 训练 语 料 芮 定 了 坚实 
基础 ,项 目 实现 了 对 225 篇 生物 化 学 领域 语 料 的 人 工 
标注 “”。 为 了 实现 机 器 自动 化 标注 ,2010 年 欧盟 资 
助 项 目 SAPIENT Automation 继续 上 述 研究 ,提出 了 Co- 
reSC 模型 并 基于 该 模型 开发 了 自动 标注 工具 SAPIEN- 
TA( 注 意 比 上 边 多 了 一 个 A, 表 示 自 动 化 Automation) , 
语 料 也 得 到 进一步 丰富 完善 ,完成 265 篇 黄金 标注 数 
jefe"! SAPIENTA 具体 应 用 于 两 个 系统 ,一 是 自 
动 文摘 系统 ,实验 证 明 CoreSC 模型 生成 的 文摘 比 Mi- 
crosoft 自动 生成 文摘 效果 更 好 ,甚至 在 某 些 情 况 下 要 
优 于 人 工 撰写 的 文摘 ;二 是 应 用 于 生命 科学 研究 领域 
CRA 项 目 (癌症 风险 评估 项 目 ) “对 该 领域 文章 进 
行 更 好 的 标注 ,以 方便 研究 人 员 对 该 领域 论文 深入 研 


究 分 析 。 

AZ 模型 前 期 主要 为 剑桥 大 学 的 研究 性 项 目 ,第 一 
阶段 由 提出 者 联合 相关 人 员 对 80 篇 计算 语言 学 领域 
文章 进行 标注 ”” ,并 实现 了 机 器 自动 标注 。 第 二 阶 
段 应 用 到 CRA 项 目 ,由 剑桥 大 学 教授 A. Korhonen, Fi 
HR YS OKT KS be U. Stenius 教授 带领 团队 协助 研 
究 人 员 和 风险 评估 人 员 的 工作 ,有 助 于 未 来 有 效 管理 
健康 风险 ,项 目 使 用 AZ -I 模型 对 相关 文献 进行 自动 
标注 , 产 出 1 000 篇 摘要 标注 语 料 和 CRAB 2.0 标注 工 
具 , 供 癌症 评估 人 员 在 线 阅 读 和 检索 已 经 标注 好 的 科 
研 文 献 IO, 

Multilayer 模型 由 欧盟 委员 会 第 七 次 框架 项 日 资 
助 ,最 终 目的 是 利用 科学 技术 的 手段 促进 科技 创新 , 侧 
重 利用 对 科技 文献 的 标注 和 知识 挖 气 发 现 可 能 的 技术 
创新 点 。 该 项 目 最 大 的 贡献 在 于 完整 地 梳理 和 提出 了 
同时 集成 很 多 开源 工具 的 一 套 科技 文献 的 标注 框架 和 
ERTA DRI Framework ^" ,方便 相关 研究 人 员 人 参考 使 
用 ,同时 进一步 应 用 在 SKM Scientific Knowledge Miner 
项 目 进行 科研 知识 挖掘 工作 。 

3.4 模型 标注 技术 和 分 类 效果 的 对 比分 析 

经 过 上 述 分 析 , 系统 应 用 效果 的 好 坏 关 键 还 依赖 
于 语义 类 别 标注 的 效果 ,本 文 比较 了 基于 各 个 模型 自 
动 标注 的 实现 效果 ,分 别 对 正确 率 P、 召 回 率 R 和 也 
值 进行 分 析 以 及 在 自动 标注 过 程 中 选用 的 分 类 方 
法 和 最 好 、 最 差 平均 值 的 效果 比较 。 由 于 每 个 研 
究 者 的 领域 不 同 ,因此 实验 数据 集合 也 不 同 , 本 文 提 供 
每 个 研究 者 整体 的 实验 效果 ,并 不 进行 相同 数据 集 的 
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实验 分 析 比 较 ( 基 于 相同 数据 集 的 实验 比较 可 作为 进 
一 步 研 究 实施 任务 ). 虽然 基于 不 同 的 数据 集 ,但 本 文 
从 结果 数据 上 进行 整体 分 析 , 因 此 不 影响 本 文 即将 进 
行 的 研究 综述 和 结论 分 析 。 

具体 而 言 ,SciAnnoDoc 主要 是 依赖 于 人 工 撰写 不 


同类 别 的 语法 规则 外 ,包括 20 个 Finding 规则 、34 个 
Definitions 规则 .11 个 Hypothesis 规则 和 19 个 Method- 
ologies 规则 ,利用 1 400 篇 人 工 标注 进行 训练 ,对 555 
个 句子 实现 了 自动 分 类 ,分 类 效果 见 表 8。 

CoreSC 模型 的 研究 人 员 分 别 利 用 不 同 的 特征 基于 
265 篇 语 料 进 行 了 10 - 交叉 验证 和 实验 ,利用 支持 向 


表 8 SciAnnoDoc 分 类 结果 
ES 句子 个 数 P R FI 
Findings 168 0. 82 0.39 0.53 
Hypothesis 104 0.62 0.29 0.39 
Definition 111 0. 80 0.32 0.46 
Methodologies 172 0.83 0.46 0.59 
平均 值 139 0.77 0.37 0.49 


量 机 SVM ,随机 向 量 场 CRE 和 线性 核 分 类 器 进行 自动 
分 类 实验 ,在 此 仅 列举 效果 比较 好 的 结果 ,利用 所 有 特 


如 表 9 所 示 : 


表 9 CoreSC 模型 分 类 结果 


征 值 的 基于 SVM 的 分 类 噩 在 各 个 类 别 


的 分 类 效果 


中 于 AZ 模型 相对 比较 复杂 ,并 且 有 一 此 类别 


类 别 BAC CON EXP GOA MET MOT OBS RES MOD OBJ HYP 平均 值 
T 
= 0.56 0.50 0.72 0.37 0.33 0.25 0.53 0.46 0. 54 0.43 0.32 0.46 
C 0.68 0.41 0.78 0.20 0.25 0.06 0.47 0.57 0.52 0.29 0.13 0.40 
©, 0.62 0.45 0.75 0.26 0.29 0.10 0.50 0.51 0. 53 0.34 0. 19 0.41 


行 自动 标注 分 类 比较 。 实 验 基 于 AZ 人 工 标注 的 80 篇 


EAZ I 所 独 有 的 ,因此 效果 的 好 坏 不 具备 与 其 他 模 
型 的 可 比 性 ,因此 本 文选 择 了 相对 简单 的 AZ 模型 进 
CN 


计算 语言 学 文章 ,进行 交叉 实验 验证 ,采用 朴素 贝 叶 其 


分 类 器 进行 分 类 ,取得 的 效果 如 表 10 Biz T: 
表 10 AZ 模型 分 类 结果 


CN 类 别 AIM CONTR. TEXTUAL OWN BACKG. BASIS OTHER 平均 值 
= P 0.44 0.34 0.57 0.84 0.40 0.37 0.52 0.50 
» R 0.65 0.20 0.66 0.88 0.50 0.40 0.39 0.53 
®© 
c F1 0.52 0.26 0.61 0. 86 0.45 0.38 0. 44 0.50 
Multilayer 模型 在 计算 机 图 形 学 领域 取得 的 分 类 0.466 0.778 0.876 0.679 0.675 0.801 
"M 6 ,基于 人 工 标注 的 40 篇 语 料 ,分 别 选 择 了 逮 E 
Seer TM w z T w 
辑 回 归 和 SVM 分 类 器 进行 测试 ,对 相应 的 FL 值 进 行 - 可 B BN E Avs 
: RERA » x: a 9 E F1 
TIR HEE, FL OUI AL CR CAE C T iE ER Sib 
确 率 和 召回 率 统 计 信 息 ) o | 
0.430 0.735 0.851 0.623 0.496 0.764 | 


综 上 ,对 各 个 模型 整体 对 比 情况 如 表 11 Bran : 


PERFORMANCE OF THE ALGORITHM 


图 6 Multilayer 模型 分 类 结果 


表 11 模型 标注 工具 和 分 类 算法 比较 


模型 名 称 自动 分 类 算法 最 好 效果 (类别 了 -R 下 1) 最 差 效 果 ( 类别 了 RF1) 平均 效果 (P-R-F1) 
SciAnnoDoc 基于 规则 匹配 算法 Methodology - 83% 46% 59% Hypothesis 62% 29% 39% 77% 371% A996 
CoreSC 支持 向 量 机 SVM 、 随 机 向 量 场 CRE Expriment-72% -78% 75% MOT-25% 6% -10% 46% 40% 41% 
AZ/ AZ4I 综合 NB SVM .CRF OWN 8146 91% 85% CONTR. 34% 20% 26% 50% 53% 50% 
Multilayer 逻辑 回归 LR 和 SVM Approach-F 值 一 一 87.6% CHALLENGE-F 值 47% 一 一 F 值 80% 
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3.5 ” 语 篇 元 素 自动 标注 模型 存在 问题 分 析 

(1) 自动 标注 的 语义 类 别 种 类 以 及 蕴含 意义 定义 
问题 难度 较 大 ,类 别 太 少 或 太 泛 不 能 够 满足 用 户 的 需 
要 (如 SciAnnoDoc 和 Multilayer) ,但 类 别 过 多 ,不 同 的 
类 别 之 间 又 会 出 现 交 叉 上 覆盖 ,造成 元 余 和 分 类 困难 (如 
CoreSC 和 AZ IT FRA) ,因此 需要 结合 实际 用 户 需要 和 
研究 需要 进行 反复 的 实证 调查 研究 。 由 于 每 个 人 的 知 
识 背景 和 知识 理解 不 同 , 调 查 研究 充满 了 主观 性 和 人 
为 干扰 因素 ,应 制定 尽 可 能 适用 于 更 多 人 群 的 类 别 , 克 
服 由 于 人 的 因素 带 来 的 不 一 致 性 存在 难度 。 

(2) 人 工 标注 数据 工作 量 大 , 耗 时 长 ,工作 繁琐 。 
每 一 个 研究 都 需要 人 工 进行 初步 的 语 料 标注 ,并 且 对 
标注 的 精确 度 有 较 高 要 求 , 这 一 人 工 标注 数据 集 的 质 
量 首 为 训练 数据 会 直接 影响 到 自动 分 类 的 效果 。 因 此 
和 多 需要 选用 相应 领域 的 专家 进行 语 料 人 工 标注 ,只 
40. 模型 为 了 降低 人 工 标注 数据 的 困难 和 准确 性 ， 
了 一 个 基于 决策 树 的 人 工 标注 指导 手册 ! ,方便 
亿 否 标注 ,即使 非 本 领域 的 专家 也 可 以 方便 地 按照 决 
辆 的 指示 完成 标注 ,实现 了 非 领域 依赖 ,但 大 多 数 都 
述 轩 领域 依赖 模型 。 

CD(3) 最 终 自动 分 类 的 效果 仍 不 是 很 理想 ,分 类 技 
术 和 方法 仍 有 很 大 的 提升 空间 。 通 过 模型 标注 技术 和 
分 类 效果 分 析 发 现 无 论 是 基于 哪 一 个 领域 的 语 料 数据 


研究 成 果 无 论 在 模型 上 还 是 在 分 类 方法 上 都 明显 优 于 
其 他 模型 ,但 在 分 类 过 程 中 选用 了 一 些 计 算 机 图 形 领 
域 特有 的 特征 作为 训练 ,所 以 对 于 其 他 领域 的 可 扩展 
性 有 竺 进一步 验证 ,并且 类 别 较 少 ,又 有 可 能 不 足以 满 
足 研 究 人 员 的 需要 。 


对 科技 文献 进行 语 篇 元 素 研究 和 标注 工作 在 当前 
知识 产权 发 展 创新 .知识 出 版 业务 创新 .知识 服务 引领 
创新 的 时 代 背 景 下 ,有 着 重要 的 理论 研究 和 实际 应 用 
价值 ,广泛 应 用 于 搜索 引擎 .自动 文摘 、 科 技 创新 点 发 
现 、 自 动 问答 系统 "”、 语 义 出 版 ”| 、 写 作 教 学 、 网 络 
语义 知识 组 织 . 引 文 推 荐 ”日 本 法 律 条 文 标注 “等 
知识 服务 环节 。 除 此 之 外 也 广泛 应 用 于 医学 .生命 科 
学 的 科学 研究 工作 中 ,如 癌症 风险 评估 生命 科学 基因 
新 功能 对 照 /基因 发 现 “ “' \ 循 证 医学 “等 ,实现 多 学 
科 跨 领域 的 研究 合作 。 

本 文 详细 研究 比较 了 几 个 模型 的 研究 工作 ,各 团 
队 针 对 不 同 的 研究 任务 和 侧重 点 ,选择 不 同 的 领域 进 
行 了 人 工 标注 ,产生 了 一 系列 标注 数据 集 和 方法 集合 ， 
这 些 模型 既 互 补 又 各 有 不 同 , 这 都 为 进行 这 方面 领域 
研究 提供 了 很 有 价值 的 参考 。 对 科技 文献 语 篇 元 素 进 
行 标注 时 ,标注 模型 的 确定 是 这 项 工作 的 基础 部 分 ,也 


和 六 类 方法 ,当前 研究 自动 标注 模型 的 效果 都 不 是 特 
别 量 想 ,存在 进一步 的 提升 空间 。SciAnnoDoc 模型 与 
其 他 模型 分 类 方法 不 同 ,主要 是 基于 规则 的 方法 ,正确 
率 出 对 较 高 ,平均 可 达 75% ,但 召回 率 很 低 ,平均 只 

35% 。 为 了 提高 召回 率 , 需 要 写 更 多 的 规则 ,但 是 规则 
越 多 ,噪音 标注 数据 的 风险 越 高 。CoreSC 模型 按照 科 
学 研究 调查 组 织 分 类 ,对 于 描述 核心 概念 比较 完善 ,但 
是 类 别 太 多 ,有 些 类 别 之 间 容 易 混淆 甚至 本 身 就 很 模 
糊 ,会 给 人 工 标注 数据 带 来 困难 ,毕竟 让 专家 对 句子 进 
行 11 个 类 别 标注 是 个 很 难 的 工作 ,因此 产生 的 训练 数 
据 本 身 的 可 靠 性 会 是 个 问题 ,所 得 到 的 分 类 效果 对 比 
其 他 模型 指标 较 低 ,F 值 最 高 75% ,最 低 10% ,平均 只 
4j 4196, AZ 模型 引入 基于 决策 树 的 标注 方法 在 一 定 
程度 上 提高 了 训练 数据 的 精准 度 , 如 在 OWN 类 别 分 类 
上 准确 率 和 召回 率 分 别 可 达 81% 和 91% ,但 AZ 模型 
相对 AZ- 模型 本 身 比较 落后 ,分 类 的 角度 也 比较 帘 
iE ,在 使 用 该 模型 过 程 中 一 般 需 要 对 模型 进一步 优化 。 
Multilayer 模型 研究 领域 和 研究 工作 较 新 ,基于 前 人 的 


是 研究 的 核心 和 重要 组 成 部 分 ,首先 需 确 定 标注 的 任 
务 和 目标 领域 ,不 同 的 研究 任务 和 领域 由 于 研究 内 容 
本 身 和 研究 者 思路 本 里 的 不 同 ,文章 的 结构 和 内 容 也 
会 干 差 万 别 ,对 模型 的 选择 和 类 别 区 分 也 会 明显 不 同 。 
其 次 ,选择 标注 的 内 容 粒 度 , 如 基于 片段 .基于 概念 分 
区 、 基 于 句子 .基于 事件 的 标注 。 不 同 的 粒度 之 间 也 不 
是 孤立 的 ,全 文 是 由 一 个 个 片段 组 成 ,而 一 个 个 片段 又 
是 由 句子 组 成 ,句子 中 又 包含 不 同 的 事件 。 最 后 ,确定 
模型 和 分 类 类 别 ,一定 要 结合 实际 的 应 用 情况 灵活 选 
择 和 制定 。 通 常情 况 下 ,一 个 句子 通常 能 较 好 地 表达 
作者 的 意图 ,同时 利用 计算 机 技术 手段 可 有 效 实现 句 
子 切 分 ,也 可 有 效 避 人 免 基于 片段 的 句子 语义 类 别 冲突 
的 情况 ,因此 可 选择 基于 句子 层级 的 标注 进行 研究 。 
对 于 语义 类 别 的 个 数 ,通过 分 析 发 现 5 -7 个 类 别 通 常 
可 包含 所 有 的 语义 描述 ,本 文 结论 为 6 个 语义 类 别 可 
害 盖 大 多 数 语 篇 元 素 语 义 类 型 , 即 研 究 目 标 、 人 研究 背 
景 . 研 究 方法 \ 研 究 发 现 \ 研 究 结 论 以 及 研究 定义 。 

科技 语 篇 元 素 最 终 的 自动 化 分 类 效果 ,直接 决定 
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了 应 用 的 效果 ,是 整个 工作 中 的 研究 重点 和 技术 难点 
部 分 。 基 于 规则 的 分 类 可 获得 较 高 的 准确 率 但 召回 率 
不 太 理 想 ,基于 机 器 学 习 的 分 类 器 需要 大 量 的 训练 人 
工 标注 语 料 , 对 缺少 人 工 支 持 的 领域 带 来 挑战 ,并 且 对 
有 些 类 别 的 分 类 效果 也 不 是 很 理想 。 当 前 人 工 智 能 领 
域 的 迅速 发 展 使 得 机 器 学 习 和 深度 学 习 的 方法 进一步 
得 到 发 展 ,已 有 研究 人 员 开 展 弱 监督 ”” ,无 监督 ”| 、 
基于 深度 神经 网 络 学 习 ”的 学 习 算 法 的 研究 以 解决 


该 类 问题 。 也 可 创新 融合 各 类 算法 进行 分 类 ,以 进 一 
步 提 高 分 类 效果 ,这 将 作为 本 文 作者 接 下 来 的 重点 研 
究 工 作 。 


本 文 对 构建 模型 的 基础 理论 假设 和 构建 思想 进 4 
了 总 结对 比 ,之 前 也 有 一 22 0E 
JM ax — f BOIECE HORE , T PRVO AER e ELE CE JE FE 
BEO MRA FÉ 研究 和 模型 定型 具有 决 
省 获 作用 。 但 该 调研 工作 可 能 还 存在 不 足 和 不 够 全 面 
的 于 方 , 接 下 来 笔者 将 进 一 步 加 强 相应 的 调研 工作 。 
ELE 丰富 化 的 工作 具体 建立 
中 各 该 工作 需要 的 模型 并 加 以 实现 ,同时 可 基于 相同 
的 驳 据 集 对 上 述 不 同 的 方法 进行 实验 验证 ,观察 相应 
的 实验 效果 ,使 得 对 比 工作 更 具 参 考 价 信 , 也 希望 提出 
人 性 分 类 方法 来 解决 上 述 分 类 问题 。 
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` Abstract. [ Purpose/ significance | In order to improve the semantic enrichment effect of scientific and technical lit- 
erdture , this paper summarizes the domestic and foreign scientific and technical literature discourse elements automatic an- 
notation model, technologies and methods, and provides reference for text mining, knowledge extraction and semantic a- 
nalysis system. [ Method/process] This paper used Web Scholar and related database search engine to conduct in-depth 
reading and related research on references and research reports involving scientific and technical papers annotation, dis- 
course elements, knowledge extraction, sentence recognition , automatic article classification, etc. and summarized the re- 
search the main technologies of each module in the framework. [ Result/conclusion | The annotation of scientific literature 
discourse elements has very important practical application value. The construction of annotation model needs to take full 
account of construction thought, annotation field and annotation granularity as well as annotation techniques. 
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